1.Cele projektu
Celem mojego projektu jest wizualizacja zmian jakie zachodziły wśród użytkowników platformy streamingowej Spotify. Mam na celu przeprowadzić analizę trendów muzycznych w latach 2010-2019 oraz zbadać zależności między konkretnymi zmiennymi i ich rozkładem na przestrzeni lat.
2.Data dictionary
Wybrany przeze mnie zbiór danych zawiera dane na temat najczęściej słuchanych przez odbiorców platformy Spotify utworów w latach 2010-2019. Zawarte w nim są następujące zmienne:
title - tytuł piosenki
artist - artysta,którego piosenka debiutowała
top genre - określa gatunek danego utworu
year - rok,w którym dana piosenka była najchętniej słuchana
bpm - tempo utworu (bity na minutę)
nrgy - energia utworu, czy jest szybki,wolny (wyższe wartości oznaczają bardziej energiczny)
dnce - zmienna określa,czy łatwo jest tańczyć do danej piosenki(wyższe wartości oznaczają,że jest łatwiej)
dB - decybele (głośność utworu)
live - prawdopodobieństwo,że piosenka była nagrywana live z publicznością
val - wyższe wartości oznaczają ,że utwór jest pozytywny, radosny
dur - czas trwania piosenki
acous - akustyczność utworu
spch - wyższe wartości oznaczają więcej słów w piosence
pop - popularność (wyższe wartości oznaczają większą popularność)
country - kraj,w którym dany utwór był najbardziej popularny w konkretnym roku
3.Analiza
1.Przygotowywanie danych
| X | title | artist | top.genre | year | bpm | nrgy | dnce | dB | live | val | dur | acous | spch | pop | country |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | Hey, Soul Sister | Train | neo mellow | 2010 | 97 | 89 | 67 | -4 | 8 | 80 | 217 | 19 | 4 | 83 | France |
| 2 | Love The Way You Lie | Eminem | detroit hip hop | 2010 | 87 | 93 | 75 | -5 | 52 | 64 | 263 | 24 | 23 | 82 | United Kingdom |
| 3 | TiK ToK | Kesha | dance pop | 2010 | 120 | 84 | 76 | -3 | 29 | 71 | 200 | 10 | 14 | 80 | Germany |
| 4 | Bad Romance | Lady Gaga | dance pop | 2010 | 119 | 92 | 70 | -4 | 8 | 71 | 295 | 0 | 4 | 79 | United Kingdom |
| 5 | Just the Way You Are | Bruno Mars | pop | 2010 | 109 | 84 | 64 | -5 | 9 | 43 | 221 | 2 | 4 | 78 | France |
| 6 | Baby | Justin Bieber | canadian pop | 2010 | 65 | 86 | 73 | -5 | 11 | 54 | 214 | 4 | 14 | 77 | United Kingdom |
2. Wizualizacja
Histogram popularności w latach 2010-2019
Histogram przedstawia rozkład popularności piosenek w latach 2010, 2011 i 2012. Każdy panel reprezentuje inny rok, a słupki wewnątrz panelu przedstawiają różne przedziały popularności.Dostrzec można,że wykres rozkładu wskazuje na to,iż jest to rozkład wielomodalny,który może być interpretowany jako oznaka zmieniających się trendów w preferencjach słuchaczy lub zmiennych wpływających na popularność. Wielomodalność oznacza, że dane mają więcej niż jedno maksimum lokalne, co może być związane z różnymi podgrupami utworów, różnymi okresami czasowymi lub różnymi zmiennymi wpływającymi na popularność. Poszczególne mody mogą reprezentować inne kategorie muzyczne lub style. Wielomodalność może wynikać z różnic w popularności między gatunkami muzycznymi,które zaś mogły wynikać ze zmieniających się trendów społeczno-kulturowych , wpływających na preferencje słuchaczy.
Powyższy histogram przedstawia zróżnicowanie gatunków muzycznych wśród użytkowników platformy Spotify z widoczną przewagą występowania piosenek o średniej w kierunku do wysokiej wartości współczynnika popularności o gatunku `dance pop` na przestrzeni lat 2010-2019 w porównaniu do innych gatunków muzycznych.Piosenki o szczególnie wysokim współczynniku popularności tego gatunku występowały w roku 2015.
Powyższy wykres pudełkowy przedstawia zależności między tanecznością utworów, a latami. Mediana w niemalże każdym z wykresów jest wysoko,co wskazuje na to,że większość utworów w danych latach miało wysoki współczynnik taneczności,poza rokiem 2016. Największe zmienności taneczności miały miejsce w roku 2014 o czym świadczy długość wykresu.Taneczność ma tendencję wzrostowo- spadkową na przestrzeni lat.Nie ma znaczących różnic między kolejnymi latami
Powyższy wykres przedstawia rozkład energiczności utworów słuchanych na platformie Spotify na przestrzeni lat. Dostrzec można tendencję spadkową tego czynnika. Największe zmienności energiczności odnotowano w roku 2019, najniższe wartości w roku 2016, zaś najwyższe w 2013.Mediana tego współczynnika jest wysoko, zatem mimo tendencji spadkowej wartości energiczności były wysokie na przestrzeni lat.
Powyższy wykres przedstawia rozkład współczynnika val
(określającego czy utwór jest radosny) na przestrzeni lat. Zauważyć
można ,iż przyjmuje on wysokie wartości na przestrzeni lat. Najmniejsze
w 2016 i 2015, zaś największe w 2014.Również w 2014 występują największe
zmienności w wartości tego współczynnika.
Analiza korelacji poszczególnych zmiennych
Na mapie korelacji widać,iż kilka zmiennych ma współczynnik korelacji
równy zeru, co oznacza brak lub bardzo słabą korelację między zmiennymi,
są niezależne . Są to między innymi bpm i pop,
spch i acous czy val i
live, zatem te ,które są reprezentowane białym lub
zbliżonym do białego kolorem. Wartości acous i
nrgy mają współczynnik korelacji bliski -1, co oznacza, że
wartości zmieniają się w przeciwnych kierunkach- gdy jedno rośnie,
drugie maleje. Zmienne reprezentowane odcieniami czerwonego wskazują na
wartości bliższe 1 ,co za tym idzie ukazują dodatnią korelację, co za
tym idzie - wartości tych współczynników zmieniają się w tym samym
kierunku(jednocześnie rosną bądź maleją).
Widać zatem ,że dla zmiennych mających dodatni współczynnik korelacji, wraz ze wzrostem jednej,rośnie druga.Zaś na drugim wykresie,który obrazuje zmienne mające ujemny współczynnik korelacji, gdy energiczność rośnie, akustyczność utworu maleje.
Powyższy interaktywny wykres punktowy dostarcza informacji o średnich wartościach poszczególnych zmiennych na przestrzeni lat.Dostrzec można spadek wartości bpm i dur , zaś wzrost pozostałych miar, w szczególności pop i acus. Zatem na przestrzeni lat zyskiwały popularność utwory, które były bardziej akustyczne oraz bardziej taneczne i zarazem krótsze.
Klastrowanie
Klastrowanie to technika, polegająca na podziale zbioru danych na grupy ze względu na podobieństwa między poszczególnymi elementami. Głównym celem jego stosowania jest znalezienie naturalnych grup danych , gdzie elementy wewnątrz klastra są odpowiednio klasyfikowane według konkretnych cech, a poszczególne klastry różnią się od siebie. Stosuję klastrowanie w celu wyodrębnienia grup wśród piosenek, jakie pojawiły się w zbiorze danych Spotify na podstawie cech takich jak tempo, akustyczność czy popularność. Pozwoli to na segmentację słuchaczy w latach 2010-2019 na podstawie ich preferencji muzycznych i tym samym na indentyfikację trendów muzycznych.
Po utworzeniu klastrów poniżej widnieją wizualizacje macierzy korelacji dla poszczególnych klastrów:
1)
Na wykresie widać ujemny współczynnik korelacji między innymi między zmiennymi acous i nrgy, dur i dB . Najniższą wartość tego współczynnika widać między dur i val czy bpm i dnce ,co wskazuje , że ich wartości zmieniają się w przeciwnych kierunkach. Najwyższe dodatnie wartości współczynnika korelacji występują między zmiennymi dB, nrgy czy dnce i val.
2)
W drugim klastrze widocznie wzrósł współczynnik korelacji między nrgy i dB ,val i pop, które wcześniej były niezależne, gdyż ich współczynnik korelacji był równy zero.Najwyższe wartości tego współczynnika występują między zmiennymi dnce i val czy spch i live. Najniższą wartość dostrzec można zaś między acous i nrgy, który jest znacznie niższy od tego w pierwszym klastrze, ponadto niższe są także wartości przy acous i dnce.
3)
Tutaj znacznie spadła wartość współczynnika korelacji dla pop i pozostałych zmiennych, czy dla spch i dnce ,czy pop i dance,które w porównaniu z drugim klastrem są ujemne.
Na powyższym wykresie widać, że piosenki o najwyższym współczynniku taneczności przynależą do 1 klastra, tam również jest najniższa z odnotowanych wartości jako wartość odstająca, zaś te o najniższym współczynniku należą do drugiego klastra.
Powyższy boxplot przedstawia rozkład wartości współczynnika
val określającego pozytywność utworu w każdym z klastrów.
Jak widać najwyższe wielkości znajdują się w pierwszym klastrze,
najniższe zaś w drugim. W trzecim klastrze również występują głównie
piosenki o średniej wartości współczynika val.Najdłuższe
wąsy wykresu pudełkowego dla pierwszego klastra, może wskazywać na
największą zmienność danych w ciągu lat.
Powyżej widać rozkład akustyczności w każdym z klastrów. Piosenki o najwyższej akustyczności skumulowane są w drugim klastrze , zaś te o najniższej w pierwszym i trzecim(tutaj również najwyższe wartości odstające). Te utwory o wolniejszym tempie przypisane są do drugiego klastra, zaś te o szybszym - głównie do pierwszego.W trzecim klastrze zawartych jest dużo wartości, które są wyższe od trzeciego kwartyla, jednak nie mają wartości odstających.
Tutaj zaś widać, iż piosenki o największej ilości słów w tekście znajdują się w trzecim klastrze, zaś te o najmniejszej ich ilości w pierwszym. Podobnie z długością trwania utworu.
Powyżej widać rozkład współczynnika dB określającego
głośność utworów. Piosenki o najniższej jego wartości przypisane są do
drugiego klastra, zaś te o najwyższej-do pierwszego.
Piosenki najmniej popularne spośród tych wymienionych w tabeli
znajdują się w pierwszym klastrze, zaś te o najwyższych wartościach
współczynnika pop odnotowano w drugim.
Jaka piosenka cieszyła się największą popularnością w danym roku?
Poniższy wykres słupkowy obrazuje jaka piosenka cieszyła się największą popularnością w danym roku.Dostarcza on informacji na temat wskaźnika popularności utworu, jego autora ,tytuł czy gatunek muzyczny tej piosenki.
Mapa ilustrująca najpopularniejsze utwory w danym roku
Powyższa mapka przedstawia kraje,w których w danym roku ,w którym odsłuchiwana piosenka uzyskała najwyższy współczynnik popularności.Jak widać najwyższą wartość tego współczynnika odnotowano w Nowej Zelandii w roku 2019 ,dzięki piosence “Memories” zespołu Maroon 5, zaś najniższą wartość odnotowano dla piosenki “Titanium” autorstwa Davida Guetta w 2012 roku w Hiszpanii.Ponadto piosenka “One Kiss” Calvina Harrisa w 2018 roku wraz z utworem “All of me” John Legend w 2014 uzyskały ten sam (równy 86) współczynnik popularności.
Mapa najbardziej popularnych utworów dla każdego kraju, który wystąpił w ramce danych
Wykres przedstawiający najczęściej słuchany gatunek dla każdego roku
Wykres słupkowy przedstawia jaki gatunek muzyczny cieszył się największym zainteresowaniem wśród słuchaczy platformy Spotify.
Tutaj zaś interaktywny wykres kołowy, który przedstawia procentowy udział gatunków rodzaju pop w ogólnej liczbie gatunków, jakie wystąpiły w latach 2010-2019.
Jakie konkretnie gatunki muzyczne były popularne w różnych latach?
Poprzedni wykres przedstawiał procentowy rozkład popularnych gatunków, ten zaś przedstawia dokładnie jaka była liczebność każdego z gatunków. Widać wyraźną przewagę gatunku dance pop oraz pop jednak widać dokładnie jakie gatunki składały się na kategorię others w poprzednim wykresie kołowym ,były to wszelkie gatunki z zakresu pop, w szczególności canadian pop ,jednak w 2013 roku wyróżnił się także gatunek boy band, co mogło mieć związek z rosnącą wówczas popularnością wśród nastoletnich słuchaczy, zespołu One direction czy Jonas Brothers .
Związek między energicznością piosenki, a jej popularnością
Widoczny wykres punktowy przedstawia jak współczynnik pop wpływał na współczynnik nrgy na przestrzeni lat 2010-2019. Jak widać w przeważającej większości lat , wraz ze wzrostem współczynnika popularności , wzrasta współczynnik energiczności utworu (szczególnie widoczne w 2018,2019 czy 2013 roku), zaś odnotowany niewielki jego spadek w roku 2011 czy 2016.
Związek między tempem a tanecznością danego utworu
Powyższy wykres uwidacznia ,iż taneczność i tempo rosną wspólnie mniej więcej do wartości 100 współczynnika tempa(z odstępstwami np. w roku 2019,2017,2018,2013) zaś po osiągnięciu go w każdym z lat nastąpił zarówno spadek tempa i taneczności wśród odsłuchiwanych utworów, zatem popularne stały się utwory mniej taneczne, wolniejsze.
Czy taneczność wpływa na popularność?
Zauważyć można, że wraz ze wzrostem popularności utworu, rośnie jego taneczność, zatem im bardziej popularna piosenka, tym bardziej jest odpowiednia do tańca.
Na wykresie widać zależność taneczności od pozytywności utworu, im utwór jest bardziej pozytywny, tym większy jest jego współczynnik taneczności.
Z wykresu wynika,iż na przestrzeni lat po znacznym wzroście w 2012 roku spadała pozytywność odsłuchiwanych na Spotify utworów, najniższą wartość tego współczynnika miału utwory popularne w 2016 roku.Potem zaś nastąpił wzrost , na co wpływ miała publikacja w 2016 roku albumu Adele czy Eda Sheerana, które cieszyły się ogromną popularnością na całym świecie, potem zaś nastąpił ponowny spadek tego współczynnika.
Jak widać na wykresie, na przestrzeni lat większą popularność zyskiwały piosenki, które były krótkie. Szczególny spadek współczynnika określającego długość utworów nastąpił w 2019 roku, zaś najwyższe wartości odnotował w 2011 roku.
Powyższe wykresy pokazują,że utwory o najwyższych wartościach
współczynnika dur, określającego długość piosenki, były
popularne w 2013 roku,zaś te o najniższym w 2015 roku.Ponadto widać, że
współczynnik ten ma tendencję spadkową oraz na podstawie niskiej
wartości mediany można stwierdzić,że współczynnik ten na ogół był niski,
co za tym idzie w latach 2010-2019 popularne były krótkie utwory.
Głośność w latach 2010-2016
Energia i akustyczność utworów w latach 2010-2019
Wykres słupkowy przedstawia rozkład wartości akustyczności i
energiczności utworów na przestrzeni lat. Kolorem różowym zaznaczona
jest zmienna nrgy , zaś kolorem niebieskim
acous. W latach 2010-2019 widoczny jest wzrost obu tych
współczynników do roku 2015, potem zaś widać spadek obu tych wartości,
zatem do roku 2015 popularne były bardziej energiczne, akustyczne
piosenki, zaś po tym roku częściej słuchane były wolniejsze, mniej
akustyczne utwory.
Taneczność utworów
Powyższy wykres nawiązuje poniekąd do poprzedniego,gdyż wartości
współczynnika dnce mają podobny rozkład do współczynników
nrgy i acous , co oznacza wyraźny wzrost do
2015 roku,(ze spadkiem w 2012 i 2014), po czym znaczny spadek wartości
tej zmiennej.
4.Podsumowanie
Celem projektu było zrozumienie związków między różnymi atrybutami utworów muzycznych z tabeli Spotify wraz z badaniem trendów na przestrzeni lat 2010/2019. Sprawdzano korelacje między takimi zmiennymi jak energia, głośność, długość utworu, taneczność czy akustyczność.
Z przeprowadzonej analizy zauważyć można dodatnie korelacje między zmiennymi:
popularność i energiczność - im bardziej energiczna piosenka tym bardziej popularna
tempo i głośność - wraz ze wzrostem tempa rośnie głośność
taneczność i głośność
taneczność i pozytywność utworu
energiczność i pozytywność
Jednak akustyczność utworów muzycznych nie wpływa na ich energiczność, taneczność czy pozytywność. Również długość trwania piosenki nie ma związku z jego współczynnikiem pozytywności.
Z wykresów zauważamy następujące trendy:
długość piosenki się zmniejsza
tempo też się zmniejsza
zmniejsza się również ilość słów wypowiadanych w piosence
głośności utworu się zwiększa
energiczność się zmniejsza
współczynnik odpowiadający za pewność, że piosenka była nagrywana z publicznością jest stabilny
pozytywność utworu się zwiększa
taneczność piosenki się podnosi
akustyczność również się zwiększa
Zmiany w długości piosenek i ilości słów wypowiadanych w utworze mogą mieć związek z tym, że krótsze piosenki były bardziej chwytliwe,chętniej słuchane przez odbiorców (ze względu na zmiany w zachowaniach słuchaczy, jak skrócenie czasu uwagi).Może to mieć też związek ze stale rozwijającą się branżą muzyczną i testowaniem przez wykonawców tego , jakie utwory się najlepiej przyjmą przez słuchaczy, co ma też wpływ na zmianę innych cech, jak pozytywność, tempo czy głośność. Brzmienia muzyczne są zależne od trendów, zatem wahania we współczynnikach opisujących energiczność, pozytywność czy tempo i taneczność zależą od tego jakie były preferencje słuchaczy danej dekady. W związku z rozwojem portali społecznościowych zmiany te spowodowane mogły być tym jakie gatunki zyskiwały największą popularność wśród ich użytkowników. Zmiany w we współczynnikach opisujących cechy utworów mogą mieć również związek z tym, jacy wykonawcy zyskiwali popularność, wchodzili do branży muzycznej. Dla przykładu akustyczność zaczęła wzrastać w 2011 roku, kiedy to popularność zyskał Ed sheeran, którego utwory charakteryzuje wysoka akustyczność. Również w 2015 wzrósł współczynnik live , który określa czy utwór był nagrywany z publicznością. Wtedy to popularność zyskiwało wiele boy bandów, jak choćby One direction i koncerty zyskały większą popularność, dzięki czemu wersje live były chętniej słuchane, gdyż pozwalały przywołać klimat koncertu. Zmiany w popularności utworów mogły wynikać z tego, że na początku Spotify był dostępny dla ograniczonej ilości użytkowników, zaś później kiedy zyskał większą popularność poprzez udostępnienie go w wielu innych krajach, powstały inne platformy streamingowe takie jak Apple Music czy Tidal, które mimo wysokiej liczby użytkowników Spotify skradły część jego słuchaczy.
Na podstawie boxplotów podzielonych ze względu na klastry , możemy klasyfikować piosenki jakie wystąpiły w tabeli na następujące grupy trzy grupy:
W pierwszej skumulowane są piosenki najmniej popularne spośród wymienionych w tabeli, krótkie, o niewielkiej ilości słów, szybkim tempie, głośne, taneczne i mało akustyczne , występuje duża różnorodność w kwestii współczynnika walencyjności.
W drugiej grupie znajdują się utwory najbardziej popularne,o mniejszej ilości słów, ciche, niższym tempie, za to bardziej akustyczne,mało radosne, niezbyt taneczne.
Do trzeciej grupy przypisane są utwory średnio taneczne i pozytywne, mają największą ilość słów i są najdłuższe, średnio akustyczne i popularne.